iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 3
0
自我挑戰組

30天學習筆記系列 第 3

Day 3. 資料選定與匯入-2

  • 分享至 

  • xImage
  •  

昨天已經找好資料,今天要來抓資料了
今天先來抓統計區15歲以上人口五歲年齡組與性別與婚姻狀況統計的資料
先下載需要的packages

install.packages("rvest")
install.packages("XML")

呼叫packages

library(rvest)
library(XML)

因為一個網頁有很多個要下載的網址,所以要先從網頁上抓取要下載的檔案連結

  1. 先設定URL為https://data.moi.gov.tw/MoiOD/Data/DataDetail.aspx?oid=931F7F6C-9222-4191-8FCA-026DBD62ED0C
  2. 用read_html讀取HTML的內容,並用html_nodes抓取我要的HTML內容
  3. 用grep找到含有DownloadFile的位置
  4. 最後xmlurl會是我要的檔案位置
data_url<-"https://data.moi.gov.tw/MoiOD/Data/DataDetail.aspx?oid=931F7F6C-9222-4191-8FCA-026DBD62ED0C"
content<-read_html(data_url)
text<- html_nodes(content,"td a")
target<-grep("DownloadFile",text)

xmlurl<-html_attr(text[target],"href")

結果會長

[1] "../System/DownloadFile.aspx?DATA=0A008294-CB1E-47AD-B255-D34313DDB778"
[2] "../System/DownloadFile.aspx?DATA=6879853C-009D-4D01-9340-90F0A20B65E8"
[3] "../System/DownloadFile.aspx?DATA=DD479CAE-1622-441F-B2D1-56914B2A60B7"
[4] "../System/DownloadFile.aspx?DATA=CD55A834-9AB9-4693-BBA2-4B3519E38B06"
[5] "../System/DownloadFile.aspx?DATA=61ABC3B2-A4AA-4C1D-8AE9-0F43C68298D5"

抓下來的xmlurl是.aspx
然後我就遇到難題啦~~~~我從來沒有處理過.aspx,網路上找不太到相關的資料
總之就是我還沒找到辦法處理它,所以今天進度delay了...
本來今天至少要下載到一個檔,只好明天再解決這個問題了~


上一篇
Day 2. 資料選定與匯入-1
下一篇
Day 4. 資料選定與匯入-3
系列文
30天學習筆記7
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言